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Вияв аномально! повед1нки системами виявлення атак 
при 1нтервально-значному зображенн! даних 


В статье рассмотрен метод обнаружения аномального поведения пользователей распределенной компьютерной 
сети при интервально-значном представлении данных, основанный на построении устойчивой кластерной 
структуры с помощью эвристического метода возможностной кластеризации. Предложенный метод 
иллюстрируется результатами вычислительного эксперимента. 

Ключевые слова: кластеризация, аномальные наблюдения, неопределенные данные. 


А тефо4 оЁ а&есип® апотаюи$ азег Бераутюг ш а Чи щед сотршайопа![ пебмо к Юг а сазе оЁ пиегуа|-уае4 
Чака 1$ сопзеге4 ш Фе агасе. ТЬе тефо4 1$ Базе оп сопугасипе 5аЫе сазепие збасвге изте а Веитзас 
тешо4 оЁ роз Ш$ис сазеппо. Те ргорозе4 теод 15 Шазигаеа Бу Ше гези 5 оЁ питепса!| ехрегитепе. 

Кеу уог45$: сазептпе, апотаюи$ обзегуаНоп$, ипсецат даа. 


У стати розглянуто метод виявлення аномально! повед1нки користувачв розподлено! комп’ютерно! мереж! 
при 1нтервально-значному зображенн! даних, що заснований на побудов! стйко! кластерно! структури за 
допомогою евристичного методу можливсно! кластеризаци. Запропонований метод 1люструеться результатами 
обчислювального експерименту. 
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Введение 


Системы обнаружения атак на объекты информатизации давно применяются как 
один из необходимых рубежей защиты информационных систем. Системы обнаружения 
атак представляют собой программные или аппаратно-программные решения, которые 
автоматизируют процесс контроля событий, протекающих в компьютерной системе или 
сети, а также самостоятельно анализируют эти события в поисках признаков проблем 


«Штучний 1нтелект» 32012 421 


Анищенко В.В., Вятченин Д.А., Доморацкий А.В., Фисенко В.К. 


ТА 


безопасности. Так как количество различных типов и способов организации несанкциони- 
рованных проникновений в чужие сети значительно увеличилось за последние годы, си- 
стемы обнаружения атак стали необходимым компонентом инфраструктуры безопасности 
большинства организаций. 

Системы обнаружения атак условно делятся на два типа: системы обнаружения 
злоумышленного поведения и системы обнаружения аномального поведения. Системы 
обнаружения злоумышленного поведения основаны на информации о признаках, ха- 
рактеризующих поведение злоумышленника, тогда как работа систем обнаружения 
аномального поведения основана на информации о некоторых признаках, характеризую- 
щих допустимое поведение объекта наблюдения, где под допустимым поведением пони- 
маются действия, выполняемые объектом и не противоречащие политике безопасности. 
Главным достоинством систем обнаружения аномального поведения является возможность 
генерирования системами указанного типа информации, которая может быть использова- 
на в системах обнаружения злоумышленного поведения, что, в свою очередь, открывает 
возможности создания гибридных систем обнаружения атак. 

Наиболее распространенным видом реализации технологии обнаружения аномаль- 
ного поведения является применение различных статистических методов, в том числе 
кластерного анализа [1]. Следует также указать, что в работе [1] особо отмечается высокая 
эффективность методов кластеризации в задачах обнаружения аномальных наблюдений в 
исследуемой совокупности объектов. В последние годы особый интерес у исследователей 
вызывают методы нечеткой и возможностной кластеризации [2], отличительной чертой 
которых является не просто указание принадлежности того или иного объекта к опре- 
деленному кластеру, но и степень, с которой данный объект принадлежит тому или иному 
таксону. Необходимо отметить, что подавляющее болыпинство алгоритмов нечеткой и 
возможностной кластеризации являются представителями так называемого оптимизацион- 
ного направления. С другой стороны, в работах [3-7] предложен так называемый эв- 
ристический подход к решению задачи возможностной кластеризации, отличающийся от 
оптимизационного подхода устойчивостью результатов классификации. 

В работе [8] предложена методология применения эвристических алгоритмов воз- 
можностной кластеризации при разработке систем обнаружения аномального поведения, 
которая основывается на выработке признакового пространства, описывающего нормаль- 
ное поведение объектов информатизации, с последующим сбором статистической инфор- 
мации и обнаружением объектов, поведение которых отличается от допустимого. Недос- 
татком предложенного в [8] подхода является описание поведения объектов информати- 
зации в виде вектора некоторых количественных признаков, что является приемлемым 
для компьютерных систем, насчитывающих сравнительно небольшое число однотипных 
элементов, примером которых являются локальные вычислительные сети. 

Целью данной работы является модификация предложенной в [8] методологии 
для случая распределенных вычислительных систем, поведение элементов которых может 
описываться векторами интервалов. 


Представление данных о поведении элементов 
распределенной вычислительной сети 


Распределенные вычислительные системы представляют собой совокупность ЗНа- 
чительно удаленных друг от друга отдельных ЭВМ и локальных сет ей, представляющих 
собой вычислительные узлы. Распределенные вычислительные системы используются 
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для решения как наборов независимых задач, так и единой сложной задачи. На рис. 1 
приведена упрощенная схема организации распределенной вычислительной сети. 


Массив исходных данных 


> 
Е ЕЕ = задание = 
ЕВЕ —< реульат ВА 
лиент 
СЕРВЕР за ЗНие 
Везул, та Е пе 


Результат обработки всего массива 


Рисунок 1- Упрощенная схема распределенной вычислительной сети 


С точки зрения системного подхода, распределенная вычислительная сеть представ- 
ляет собой сложную систему, то есть систему совокупность разнотипных элементов, объе- 
диненных разнотипными связями. 

Таким образом, в качестве объекта наблюдения в распределенной вычислительной 
сети может выступать как отдельный компьютер, так и локальная вычислительная сеть, а 
признаками могут быть различные количественные характеристики, такие, к примеру, как 
количество запросов в данный период времени к размещенной в распределенной вычис- 
лительной сети файлов, число неудачных попыток входа в систему, а также загрузка 
центрального процессора того или иного отдельного компьютера. 

Учитывая, что состояние любого элемента в некоторый момент времени какой-либо 
системы может быть описано в виде вектора признаков, то состояние системы в целом 
может описываться матрицей «объект-признак», являющейся одной из двух разновидно- 
стей матриц исходных данных в задачах кластеризации [1]. При этом следует также 
учитывать, что все объекты — элементы распределенной вычислительной сети должны 
быть описаны в едином признаковом пространстве, а так как значения какого-либо 
признака для некоторых элементов может варьироваться в интервале даже в отдельно 
взятый момент времени, то каждый элемент системы должен быть представлен в виде 
вектора интервалов значений какого-либо признака. Таким образом, при классификации 
элементов распределенной вычислительной сети с целью обнаружения аномального пове- 
дения того или иного элемента, возникает задача обработки интервально-значных данных. 


Основные понятия эвристического метода 
возможностной кластеризации 


Эвристический метод ВОЗМОЖНОСТНОЙ кластеризации состоит в построении так на- 
зываемого распределения по с нечетких © -кластеров, являющегося частным случаем 
ВОЗМОЖНОСТНОГО разбиения, В общем случае, определяемого условием 


ОЕ. (1) 
1-1 
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где Х ={х,...х,} — исследуемая совокупность объектов, на которой определена 
нечеткая толерантность Т , то есть симметричное, рефлексивное, нетранзитивное бинарное 
нечеткое отношение, с функцией принадлежности и, (х„х,), 5] =1,...п, так что строки 


или столбцы этой нечеткой толерантности являются нечеткими множествами {А'...., А"}. 
В таком случае, для некоторого значения &@, @ е (01], нечеткое множество уровня &@, 
1 1 1 
определяемое условием Ау, = {(х,, Ни (х,))| Ни (х,) 29}, [Е {1....,п}, такое, что Ас А, 
А'={А',...,А”}, будет именоваться нечетким о -кластером с функцией принадлежности 


1 
о, объекта х, е Х нечеткому а -кластеру А„.,, 


№ (Х:), Х; ЕД, 


0, иначе 


определяемой выражением 
(2) 


где А, ={хеЕХ[ и „(х,)>а} — а -уровень = 
1 1 1 _ 
Если условие (1) выполняется для всех Ак, е К" (Х), где № (Х)={Аи, 1=Ьс,2<с<п} — 
семейство с нечетких & -кластеров для некоторого значения ©, порожденных заданной 
на Х нечеткой толерантностью Т , то это семейство является распределением множества 


классифицируемых объектов Х по с нечетким © -кластерам. Условие (1) в рассматри- 


ваемом случае требует, чтобы все объекты совокупности Х были распределены по с не- 


1 


четким @ -кластерам {А%,,,..., 


А„›} с положительными значениями типичности о, 
1=1,....С, 1=1....П. 

Сущность эвристических алгоритмов возможностной кластеризации заключается в 
нахождении единственного распределения К“”(Х) по априори заданному или нет, числу 
с нечетких © -кластеров. Эвристические алгоритмы возможностной кластеризации ус- 
ловно подразделяются на два типа: реляционные и алгоритмы, основанные на вычислении 
прототипов кластеров. В первом случае матрицей исходных данных служит матрица не- 
четкой толерантности Т’, являющаяся разновидностью матрицы «объект-объект», а во 
втором — матрица вида «объект-признак». Семейство реляционных эвристических ал- 
горитмов возможностной кластеризации включает: 

— О-АРС(©)-алгоритм [3]: построение распределения К”(Х) по априори заданному 
числу с частично разделенных нечетких а -кластеров; 

— О-АЕС-Р5(с)-алгоритм [4]: модификация О-АЕС(с)-алгоритма, использующая 
аппарат частичного обучения; 

— О-РАЕС-алгоритм [5]: построение главного распределения Кь(Х) по априори 
неизвестному наименьшему числу с полностью разделенных нечетких © -кластеров. 

Необходимо указать, что в работе [6] предложен ряд показателей валидности числа 
с нечетких © -кластеров в искомом распределении К"(Х) ‚ предназначенных для исполь- 


зования совместно с О-АЕС(с)-алгоритмом. 
С другой стороны, семейство эвристических алгоритмов возможностной кластери- 
зации, основанных на вычислении прототипов, включает [7]: 


— 2-АЕС-ТС-алгоритм: построение распределения К”(Х) по априори неизвестному 
числу с полностью разделенных нечетких © -кластеров; 

— О-РАЕС-ТС-алгоритм: построение главного распределения К»(Х) по априори 
неизвестному наименьшему числу с полностью разделенных нечетких о -кластеров; 
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— О-АРС-ТС(о*)-алгоритм: построение распределения К"(Х) по априори неизвест- 
ному числу с полностью разделенных нечетких с -кластеров для априори заданного наи- 
меньшего порога сходства ©”. 

Следует указать, что эвристические возможностные кластер-процедуры, основанные 
на вычислении прототипов нечетких © -кластеров, используют транзитивное замыкание 
Т нечеткой толерантности Т ‚ и не требуют априорного задания числа с полностью раз- 


деленных нечетких & -кластеров в искомом распределении К"(Х). Кроме того, реляцион- 


ные эвристические возможностные кластер-процедуры являются эффективным средет- 
ВОМ быстрого прототипирования систем нечеткого вывода [9]. 


Методология обнаружения аномальных 
наблюдений в интервально-значных данных 


В работе [10] предложена методология применения эвристических алгоритмов воз- 
можностной кластеризации к обнаружению аномальных наблюдений, в специальной лите- 
ратуре именуемых также «выбросами», в случае, когда данные об исследуемой совокупно- 
сти представлены векторами интервалов. В основе предложенной в [10] методологии лежит 
техника построения устойчивой кластерной структуры, детально изложенная в [11]. Однако 
перед изложением методологии обнаружения «выбросов» в интервально-значных данных 
представляется целесообразным кратко напомнить основные методы предварительной об- 
работки данных такого типа, рассмотренные в [12]. 

Пусть Х = {х,...х„} — множество объектов, так что каждый объект х, описывается 


т, числом признаков, и может быть представлен в виде вектора х, = (х',...,хй,...х”), 


где ыы а а 1]. Таким образом, интервально-значные данные могут быть 


представлены в виде матрицы х 5921, Той =Тиоиих 5 е (бидивах р 
пхт 1 
1 


которая может быть обработана с помощью обобщенной унитаризации 


р в (3) 
| шах о шп о) 
1) 1) 
так что каждый объект х,, 1=1,....п множества Х = {х,,...,х„} может рассматриваться как 


интервально-значное нечеткое множество с функцией принадлежности 


(тт 


нЕ, 

Для интервально-значных нечетких множеств рядом авторов были предложены 

различные расстояния и меры близости — в частности, в работе [13] П. Бурило и 

Г. Бустинцем было предложено нормализованное евклидово расстояние, определяемое 
выражением 

аа = | (ом ии} + ее — иен}, (4) 


2т; = 


бы 


для всех 1, /=1,...., п. С другой стороны, обобщение относительного евклидова расстоя- 
ния, предложенного в [14], для случая интервально-значных нечетких множеств примет 
ВИД 
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1 т 1 
е (хх) = |-> (о-в, о} (5) 
т а=| 2“ ваш," 1 
тах} 


также для всех 1, } =1,..., п. Как отмечалось в [12], построенное с помощью формулы (16) 
нечеткое отношение несходства сохраняет только свойство симметричности, так что 
обобщение относительного евклидова расстояния (5) представляет собой меру различия. 
В результате применения расстояния (4) или меры различия (5) к матрице норми- 
рованных в соответствии с формулой (3) интервально-значных данных, получается матрица 
нечеткого отношения несходства /„„ =[и,(х‚,х,)], применение к которой, в свою очередь, 


операции дополнения дает в результате матрицу нечеткой толерантности 7, =[ву (х‚›х,)], 


являющуюся матрицей исходных данных для реляционных алгоритмов эвристического 
метода возможностной кластеризации. 

Кроме того, П. Гжегожевским в [15] было предложено расстояние между интерваль- 
но-значными нечеткими множествами, основанное на метрике Хаусдорфа, а Х. Юуи 
Х. Юаном в [16] была определена мера близости интервально-значных нечетких 
множеств, которые подробно рассмотрены в [12]. 

С содержательной точки зрения, аномальное наблюдение представляет собой 
отдельный элемент, находящийся на значительном удалении от кластеров и других 
отдельных элементов [8]. Таким образом, предложенная в [10] методология обнару- 
жения аномальных наблюдений в интервально-значных данных может быть описана 
в виде следующей последовательности шагов: 

1. В соответствии с предложенной в [11] методологией построения устойчивой 


кластерной структуры, распределение А”(Х) по априори неизвестному числу с не- 
четких © -кластеров; 
2. Для каждого нечеткого ©-кластера Ас) =К”(Х) вычисляется мощность его 


носителя, сага(А!); 


3. Производится проверка условия: если сата(А! ) =1 то этот нечеткий о -кластер, 
носитель которого содержит единственный элемент х, е Х ,‚ является аномальным на- 
блюдением. 

Следует отметить, что если под аномальным наблюдением понимать немногочис- 
ленную, по сравнению с остальными, группу объектов, чему соответствует нечеткий с - 
кластер, мощность носителя которого превышает 1, то предложенная методология 
может быть тривиально обобщена на указанный случай. 


Иллюстративный пример 


В качестве иллюстрации применения предложенной методологии к решению за- 
дачи обнаружения аномального поведения элементов распределенной вычислительной 
сети может послужить рассмотренный в [10] пример двумерных интервально-значных 
данных, приведенных на рис. 2. 

Очевидно, что в исследуемой совокупности Х ={х....хв} группы объектов {х,....,х} 
и {х-,.... хр} образуют кластеры, а объекты хз, х4, м5 И хх являются «выбросами». 


Результат применения изложенной методологии к задаче обнаружения «выбро- 
сов» представлен на рис. 3. 
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Рисунок 3 — Значения принадлежностей объектов классам полученного 
распределения: при использовании расстояния (4) (а), 
при использовании меры различия (5) (6) 
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При использовании в описанной методологии расстояния (4), группа объектов 
{х.,...хр} разделилась на две подгруппы: {х.,.... хо} и {хи, хм}. С другой стороны, 
использование меры различия (5) выделяет две группы {лх,,..., хе} И {хо,... хо}, а объекты 
Хз, Ха, Х5 И хь выделяются в отдельные классы в обоих случаях и могут интепрети- 
роваться как аномальные наблюдения. Следует также указать, что в случае использования 
меры различия (5) все нечеткие © -кластеры представляют собой субнормальные нечет- 
кие множества. Результаты использования расстояния П. Гжегожевского [15] и меры бли- 
зости Х. Юу и Х. Юана [16] приведены в [10] и сходны с приведенными на рис. 3. 
результатами. 


Выводы 


В работе предложен подход к обнаружению аномального поведения в распределен- 
ных вычислительных сетях, основанный на представлении данных о состоянии элементов 
системы в виде векторов интервалов и методологии обнаружения «выбросов» в ин- 
тервально-значных данных. Результаты вычислительного эксперимента демонстрируют 
эффективность предложенного подхода. 
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Предложенный подход также может быть обобщен на случай представления данных 


о состоянии элементов системы в виде векторов нечетких чисел ПУ], что представляет 
интерес как с теоретической, так ис практической точек зрения, и является направлением 
перспективных исследований. 
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В статье рассмотрен метод обнаружения аномального поведения пользователей распределенной компьютерной 
сети при интервально-значном представлении данных, основанный на построении устойчивой кластерной 
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Введение 


Системы обнаружения атак на объекты информатизации давно применяются как 
один из необходимых рубежей защиты информационных систем. Системы обнаружения 
атак представляют собой программные или аппаратно-программные решения, которые 
автоматизируют процесс контроля событий, протекающих в компьютерной системе или 
сети, а также самостоятельно анализируют эти события в поисках признаков проблем 
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безопасности. Так как количество различных типов и способов организации несанкциони- 
рованных проникновений в чужие сети значительно увеличилось за последние годы, си- 
стемы обнаружения атак стали необходимым компонентом инфраструктуры безопасности 
большинства организаций. 

Системы обнаружения атак условно делятся на два типа: системы обнаружения 
злоумышленного поведения и системы обнаружения аномального поведения. Системы 
обнаружения злоумышленного поведения основаны на информации о признаках, ха- 
рактеризующих поведение злоумышленника, тогда как работа систем обнаружения 
аномального поведения основана на информации о некоторых признаках, характеризую- 
щих допустимое поведение объекта наблюдения, где под допустимым поведением пони- 
маются действия, выполняемые объектом и не противоречащие политике безопасности. 
Главным достоинством систем обнаружения аномального поведения является возможность 
генерирования системами указанного типа информации, которая может быть использова- 
на в системах обнаружения злоумышленного поведения, что, в свою очередь, открывает 
возможности создания гибридных систем обнаружения атак. 

Наиболее распространенным видом реализации технологии обнаружения аномаль- 
ного поведения является применение различных статистических методов, в том числе 
кластерного анализа [1]. Следует также указать, что в работе [1] особо отмечается высокая 
эффективность методов кластеризации в задачах обнаружения аномальных наблюдений в 
исследуемой совокупности объектов. В последние годы особый интерес у исследователей 
вызывают методы нечеткой и возможностной кластеризации [2], отличительной чертой 
которых является не просто указание принадлежности того или иного объекта к опре- 
деленному кластеру, но и степень, с которой данный объект принадлежит тому или иному 
таксону. Необходимо отметить, что подавляющее болыпинство алгоритмов нечеткой и 
возможностной кластеризации являются представителями так называемого оптимизацион- 
ного направления. С другой стороны, в работах [3-7] предложен так называемый эв- 
ристический подход к решению задачи возможностной кластеризации, отличающийся от 
оптимизационного подхода устойчивостью результатов классификации. 

В работе [8] предложена методология применения эвристических алгоритмов воз- 
можностной кластеризации при разработке систем обнаружения аномального поведения, 
которая основывается на выработке признакового пространства, описывающего нормаль- 
ное поведение объектов информатизации, с последующим сбором статистической инфор- 
мации и обнаружением объектов, поведение которых отличается от допустимого. Недос- 
татком предложенного в [8] подхода является описание поведения объектов информати- 
зации в виде вектора некоторых количественных признаков, что является приемлемым 
для компьютерных систем, насчитывающих сравнительно небольшое число однотипных 
элементов, примером которых являются локальные вычислительные сети. 

Целью данной работы является модификация предложенной в [8] методологии 
для случая распределенных вычислительных систем, поведение элементов которых может 
описываться векторами интервалов. 


Представление данных о поведении элементов 
распределенной вычислительной сети 


Распределенные вычислительные системы представляют собой совокупность ЗНа- 
чительно удаленных друг от друга отдельных ЭВМ и локальных сет ей, представляющих 
собой вычислительные узлы. Распределенные вычислительные системы используются 
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для решения как наборов независимых задач, так и единой сложной задачи. На рис. 1 
приведена упрощенная схема организации распределенной вычислительной сети. 


Массив исходных данных 


> 
Е ЕЕ = задание = 
ЕВЕ —< реульат ВА 
лиент 
СЕРВЕР за ЗНие 
Везул, та Е пе 


Результат обработки всего массива 


Рисунок 1- Упрощенная схема распределенной вычислительной сети 


С точки зрения системного подхода, распределенная вычислительная сеть представ- 
ляет собой сложную систему, то есть систему совокупность разнотипных элементов, объе- 
диненных разнотипными связями. 

Таким образом, в качестве объекта наблюдения в распределенной вычислительной 
сети может выступать как отдельный компьютер, так и локальная вычислительная сеть, а 
признаками могут быть различные количественные характеристики, такие, к примеру, как 
количество запросов в данный период времени к размещенной в распределенной вычис- 
лительной сети файлов, число неудачных попыток входа в систему, а также загрузка 
центрального процессора того или иного отдельного компьютера. 

Учитывая, что состояние любого элемента в некоторый момент времени какой-либо 
системы может быть описано в виде вектора признаков, то состояние системы в целом 
может описываться матрицей «объект-признак», являющейся одной из двух разновидно- 
стей матриц исходных данных в задачах кластеризации [1]. При этом следует также 
учитывать, что все объекты — элементы распределенной вычислительной сети должны 
быть описаны в едином признаковом пространстве, а так как значения какого-либо 
признака для некоторых элементов может варьироваться в интервале даже в отдельно 
взятый момент времени, то каждый элемент системы должен быть представлен в виде 
вектора интервалов значений какого-либо признака. Таким образом, при классификации 
элементов распределенной вычислительной сети с целью обнаружения аномального пове- 
дения того или иного элемента, возникает задача обработки интервально-значных данных. 


Основные понятия эвристического метода 
возможностной кластеризации 


Эвристический метод ВОЗМОЖНОСТНОЙ кластеризации состоит в построении так на- 
зываемого распределения по с нечетких © -кластеров, являющегося частным случаем 
ВОЗМОЖНОСТНОГО разбиения, В общем случае, определяемого условием 


ОЕ. (1) 
1-1 
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где Х ={х,...х,} — исследуемая совокупность объектов, на которой определена 
нечеткая толерантность Т , то есть симметричное, рефлексивное, нетранзитивное бинарное 
нечеткое отношение, с функцией принадлежности и, (х„х,), 5] =1,...п, так что строки 


или столбцы этой нечеткой толерантности являются нечеткими множествами {А'...., А"}. 
В таком случае, для некоторого значения &@, @ е (01], нечеткое множество уровня &@, 
1 1 1 
определяемое условием Ау, = {(х,, Ни (х,))| Ни (х,) 29}, [Е {1....,п}, такое, что Ас А, 
А'={А',...,А”}, будет именоваться нечетким о -кластером с функцией принадлежности 


1 
о, объекта х, е Х нечеткому а -кластеру А„.,, 


№ (Х:), Х; ЕД, 


0, иначе 


определяемой выражением 
(2) 


где А, ={хеЕХ[ и „(х,)>а} — а -уровень = 
1 1 1 _ 
Если условие (1) выполняется для всех Ак, е К" (Х), где № (Х)={Аи, 1=Ьс,2<с<п} — 
семейство с нечетких & -кластеров для некоторого значения ©, порожденных заданной 
на Х нечеткой толерантностью Т , то это семейство является распределением множества 


классифицируемых объектов Х по с нечетким © -кластерам. Условие (1) в рассматри- 


ваемом случае требует, чтобы все объекты совокупности Х были распределены по с не- 


1 


четким @ -кластерам {А%,,,..., 


А„›} с положительными значениями типичности о, 
1=1,....С, 1=1....П. 

Сущность эвристических алгоритмов возможностной кластеризации заключается в 
нахождении единственного распределения К“”(Х) по априори заданному или нет, числу 
с нечетких © -кластеров. Эвристические алгоритмы возможностной кластеризации ус- 
ловно подразделяются на два типа: реляционные и алгоритмы, основанные на вычислении 
прототипов кластеров. В первом случае матрицей исходных данных служит матрица не- 
четкой толерантности Т’, являющаяся разновидностью матрицы «объект-объект», а во 
втором — матрица вида «объект-признак». Семейство реляционных эвристических ал- 
горитмов возможностной кластеризации включает: 

— О-АРС(©)-алгоритм [3]: построение распределения К”(Х) по априори заданному 
числу с частично разделенных нечетких а -кластеров; 

— О-АЕС-Р5(с)-алгоритм [4]: модификация О-АЕС(с)-алгоритма, использующая 
аппарат частичного обучения; 

— О-РАЕС-алгоритм [5]: построение главного распределения Кь(Х) по априори 
неизвестному наименьшему числу с полностью разделенных нечетких © -кластеров. 

Необходимо указать, что в работе [6] предложен ряд показателей валидности числа 
с нечетких © -кластеров в искомом распределении К"(Х) ‚ предназначенных для исполь- 


зования совместно с О-АЕС(с)-алгоритмом. 
С другой стороны, семейство эвристических алгоритмов возможностной кластери- 
зации, основанных на вычислении прототипов, включает [7]: 


— 2-АЕС-ТС-алгоритм: построение распределения К”(Х) по априори неизвестному 
числу с полностью разделенных нечетких © -кластеров; 

— О-РАЕС-ТС-алгоритм: построение главного распределения К»(Х) по априори 
неизвестному наименьшему числу с полностью разделенных нечетких о -кластеров; 
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— О-АРС-ТС(о*)-алгоритм: построение распределения К"(Х) по априори неизвест- 
ному числу с полностью разделенных нечетких с -кластеров для априори заданного наи- 
меньшего порога сходства ©”. 

Следует указать, что эвристические возможностные кластер-процедуры, основанные 
на вычислении прототипов нечетких © -кластеров, используют транзитивное замыкание 
Т нечеткой толерантности Т ‚ и не требуют априорного задания числа с полностью раз- 


деленных нечетких & -кластеров в искомом распределении К"(Х). Кроме того, реляцион- 


ные эвристические возможностные кластер-процедуры являются эффективным средет- 
ВОМ быстрого прототипирования систем нечеткого вывода [9]. 


Методология обнаружения аномальных 
наблюдений в интервально-значных данных 


В работе [10] предложена методология применения эвристических алгоритмов воз- 
можностной кластеризации к обнаружению аномальных наблюдений, в специальной лите- 
ратуре именуемых также «выбросами», в случае, когда данные об исследуемой совокупно- 
сти представлены векторами интервалов. В основе предложенной в [10] методологии лежит 
техника построения устойчивой кластерной структуры, детально изложенная в [11]. Однако 
перед изложением методологии обнаружения «выбросов» в интервально-значных данных 
представляется целесообразным кратко напомнить основные методы предварительной об- 
работки данных такого типа, рассмотренные в [12]. 

Пусть Х = {х,...х„} — множество объектов, так что каждый объект х, описывается 


т, числом признаков, и может быть представлен в виде вектора х, = (х',...,хй,...х”), 


где ыы а а 1]. Таким образом, интервально-значные данные могут быть 


представлены в виде матрицы х 5921, Той =Тиоиих 5 е (бидивах р 
пхт 1 
1 


которая может быть обработана с помощью обобщенной унитаризации 


р в (3) 
| шах о шп о) 
1) 1) 
так что каждый объект х,, 1=1,....п множества Х = {х,,...,х„} может рассматриваться как 


интервально-значное нечеткое множество с функцией принадлежности 


(тт 


нЕ, 

Для интервально-значных нечетких множеств рядом авторов были предложены 

различные расстояния и меры близости — в частности, в работе [13] П. Бурило и 

Г. Бустинцем было предложено нормализованное евклидово расстояние, определяемое 
выражением 

аа = | (ом ии} + ее — иен}, (4) 


2т; = 


бы 


для всех 1, /=1,...., п. С другой стороны, обобщение относительного евклидова расстоя- 
ния, предложенного в [14], для случая интервально-значных нечетких множеств примет 
ВИД 
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1 т 1 
е (хх) = |-> (о-в, о} (5) 
т а=| 2“ ваш," 1 
тах} 


также для всех 1, } =1,..., п. Как отмечалось в [12], построенное с помощью формулы (16) 
нечеткое отношение несходства сохраняет только свойство симметричности, так что 
обобщение относительного евклидова расстояния (5) представляет собой меру различия. 
В результате применения расстояния (4) или меры различия (5) к матрице норми- 
рованных в соответствии с формулой (3) интервально-значных данных, получается матрица 
нечеткого отношения несходства /„„ =[и,(х‚,х,)], применение к которой, в свою очередь, 


операции дополнения дает в результате матрицу нечеткой толерантности 7, =[ву (х‚›х,)], 


являющуюся матрицей исходных данных для реляционных алгоритмов эвристического 
метода возможностной кластеризации. 

Кроме того, П. Гжегожевским в [15] было предложено расстояние между интерваль- 
но-значными нечеткими множествами, основанное на метрике Хаусдорфа, а Х. Юуи 
Х. Юаном в [16] была определена мера близости интервально-значных нечетких 
множеств, которые подробно рассмотрены в [12]. 

С содержательной точки зрения, аномальное наблюдение представляет собой 
отдельный элемент, находящийся на значительном удалении от кластеров и других 
отдельных элементов [8]. Таким образом, предложенная в [10] методология обнару- 
жения аномальных наблюдений в интервально-значных данных может быть описана 
в виде следующей последовательности шагов: 

1. В соответствии с предложенной в [11] методологией построения устойчивой 


кластерной структуры, распределение А”(Х) по априори неизвестному числу с не- 
четких © -кластеров; 
2. Для каждого нечеткого ©-кластера Ас) =К”(Х) вычисляется мощность его 


носителя, сага(А!); 


3. Производится проверка условия: если сата(А! ) =1 то этот нечеткий о -кластер, 
носитель которого содержит единственный элемент х, е Х ,‚ является аномальным на- 
блюдением. 

Следует отметить, что если под аномальным наблюдением понимать немногочис- 
ленную, по сравнению с остальными, группу объектов, чему соответствует нечеткий с - 
кластер, мощность носителя которого превышает 1, то предложенная методология 
может быть тривиально обобщена на указанный случай. 


Иллюстративный пример 


В качестве иллюстрации применения предложенной методологии к решению за- 
дачи обнаружения аномального поведения элементов распределенной вычислительной 
сети может послужить рассмотренный в [10] пример двумерных интервально-значных 
данных, приведенных на рис. 2. 

Очевидно, что в исследуемой совокупности Х ={х....хв} группы объектов {х,....,х} 
и {х-,.... хр} образуют кластеры, а объекты хз, х4, м5 И хх являются «выбросами». 


Результат применения изложенной методологии к задаче обнаружения «выбро- 
сов» представлен на рис. 3. 
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Рисунок 3 — Значения принадлежностей объектов классам полученного 
распределения: при использовании расстояния (4) (а), 
при использовании меры различия (5) (6) 


0 2 Ч 6 


При использовании в описанной методологии расстояния (4), группа объектов 
{х.,...хр} разделилась на две подгруппы: {х.,.... хо} и {хи, хм}. С другой стороны, 
использование меры различия (5) выделяет две группы {лх,,..., хе} И {хо,... хо}, а объекты 
Хз, Ха, Х5 И хь выделяются в отдельные классы в обоих случаях и могут интепрети- 
роваться как аномальные наблюдения. Следует также указать, что в случае использования 
меры различия (5) все нечеткие © -кластеры представляют собой субнормальные нечет- 
кие множества. Результаты использования расстояния П. Гжегожевского [15] и меры бли- 
зости Х. Юу и Х. Юана [16] приведены в [10] и сходны с приведенными на рис. 3. 
результатами. 


Выводы 


В работе предложен подход к обнаружению аномального поведения в распределен- 
ных вычислительных сетях, основанный на представлении данных о состоянии элементов 
системы в виде векторов интервалов и методологии обнаружения «выбросов» в ин- 
тервально-значных данных. Результаты вычислительного эксперимента демонстрируют 
эффективность предложенного подхода. 
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Предложенный подход также может быть обобщен на случай представления данных 


о состоянии элементов системы в виде векторов нечетких чисел ПУ], что представляет 
интерес как с теоретической, так ис практической точек зрения, и является направлением 
перспективных исследований. 
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Деесипе Апотаои5 Вейатог ма Ол5соуегте АНаск5 


5уету юг пиетуа[-Уашей Раа 

Тре рарег 4еа15 у Фе ргоет оЁ даесйп® апотаоиз$ изег Бера\юг ш а 
Че сотрщайопа| пебуогК. ТБе даа звош@ Ъе гергезеще4 аз а (аЫе уВеге еась 
сей оЁ 1$ (аЫе соща1л$ ап пиегуа| оЁ уачез. 

Тре тефод оЁ а&есйипе оиег$ ш ищегуа]-уае4 Ааа \а$ аррПе4 Гог Фе ргоМет 
зо[уш2. ТБе тефоЧ 1$ Базе оп сопзгисип» $аЫе саз{егие згасваге изте а Веиизис 
те@о4 оф розз1ЬШ$с саепипо. Кез оЁ патепса]| ехреттепе зеет {о Бе зайРасогу. 
бо, Ше ргорозе арргоасй 1$ еНеснуе юо| ог д&есип® апотаои$ изег Берау1ог ш 
сотрщайопа! пебмогК$. 
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